import warnings
warnings.filterwarnings('ignore')

import numpy as np
data = np.array([[3, 2], [4, 1], [3, 6], [4, 7], [3, 9], [6, 8], [6, 6], [7, 7]])

data

array([[3, 2],
       [4, 1],
       [3, 6],
       [4, 7],
       [3, 9],
       [6, 8],
       [6, 6],
       [7, 7]])

import matplotlib.pyplot as plt
plt.scatter(data[:, 0], data[:, 1], c="red", marker='o', label='samples')  # 以红色圆圈样式绘制散点图并加上标签
plt.legend()  # 设置图例，图例内容为上面设置的label参数
plt.show()

from sklearn.cluster import KMeans
kms = KMeans(n_clusters=2)
kms.fit(data)

KMeans(n_clusters=2)

KMeans(n_clusters=2)

# 获取结果
label = kms.labels_
print(label)

[0 0 1 1 1 1 1 1]

# 结果可视化

plt.scatter(data[label == 0][:, 0], data[label == 0][:, 1], c="red", marker='o', label='class0')  # 以红色圆圈样式绘制散点图并加上标签
plt.scatter(data[label == 1][:, 0], data[label == 1][:, 1], c="green", marker='*', label='class1')  # 以绿色星星样式绘制散点图并加上标签
plt.legend()  # 设置图例

<matplotlib.legend.Legend at 0x1ae55b319a0>

# 聚成3类

kms_3 = KMeans(n_clusters=3)
kms_3.fit(data)
label_3 = kms_3.labels_
print(label_3)

[1 1 0 0 0 2 2 2]

plt.scatter(data[label_3 == 0][:, 0], data[label_3 == 0][:, 1], c="red", marker='o', label='class0')  # 以红色圆圈样式绘制散点图并加上标签
plt.scatter(data[label_3 == 1][:, 0], data[label_3 == 1][:, 1], c="green", marker='*', label='class1')  # 以绿色星星样式绘制散点图并加上标签
plt.scatter(data[label_3 == 2][:, 0], data[label_3 == 2][:, 1], c="blue", marker='+', label='class2')  # 以蓝色加号样式绘制散点图并加上标签
plt.legend()  # 设置图例

<matplotlib.legend.Legend at 0x1ae36dcc950>

import pandas as pd 
data = pd.read_excel('客户信息.xlsx')
data.head()

import matplotlib.pyplot as plt
plt.scatter(data.iloc[:, 0], data.iloc[:, 1], c="green", marker='*')  # 以绿色星星样式绘制散点图
plt.xlabel('age')  # 添加x轴名称
plt.ylabel('salary')  # 添加y轴名称
plt.show()

from sklearn.cluster import KMeans
kms = KMeans(n_clusters=3, random_state=123)
kms.fit(data)
label = kms.labels_
label = kms.fit_predict(data)

print(label)

[1 1 2 1 2 2 1 2 2 1 1 1 1 2 1 1 1 2 1 1 1 2 2 1 1 1 1 2 2 1 2 1 2 2 2 0 2
 1 2 0 1 1 2 1 2 1 2 1 1 2 2 0 1 2 1 1 1 1 2 1 2 2 2 2 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 1 1 1 2 1 2 0 0 0 0 0 0
 2]

plt.scatter(data[label == 0].iloc[:, 0], data[label == 0].iloc[:, 1], c="red", marker='o', label='class0')  # 以红色圆圈样式绘制散点图并加上标签  
plt.scatter(data[label == 1].iloc[:, 0], data[label == 1].iloc[:, 1], c="green", marker='*', label='class1')  # 以绿色星星样式绘制散点图并加上标签 
plt.scatter(data[label == 2].iloc[:, 0], data[label == 2].iloc[:, 1], c="blue", marker='+', label='class2')  # 以蓝色加号样式绘制散点图并加上标签
plt.xlabel('age')  # 添加x轴名称
plt.ylabel('salary')  # 添加y轴名称
plt.legend()  # 设置图例

<matplotlib.legend.Legend at 0x1ae57fc4800>

print(data[label == 0].iloc[:, 1].mean())  # 看下分类为标签0的人的收入均值，iloc[:, 1]为data表格的第二列，也即“收入”列
print(data[label == 1].iloc[:, 1].mean())
print(data[label == 2].iloc[:, 1].mean())

21.125
57.55555555555556
46.285714285714285

import pandas as pd
data = pd.read_excel('演示数据.xlsx')
data.head()

import matplotlib.pyplot as plt
plt.scatter(data.iloc[:, 0], data.iloc[:, 1], c="green", marker='*')  # 以绿色星星样式绘制散点图
plt.xlabel('x')  # 添加x轴名称
plt.ylabel('y')  # 添加y轴名称
plt.show()

from sklearn.cluster import DBSCAN
dbs = DBSCAN()
dbs.fit(data)
label_dbs = dbs.labels_

print(label_dbs)

[0 0 1 0 1 0 1 1 0 0 0 0 1 0 0 0 0 0 0 1 1 0 1 1 1 1 0 1 1 0 1 1 0 1 1 1 0
 1 0 0 0 1 0 1 0 1 0 0 1 0 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 0 0 0 1 1 0 0 0 1
 1 1 1 1 1 0 1 0 0 1 0 0 1 0 1 1 1 1 0 1 1 1 0 1 1 0]

plt.scatter(data[label_dbs == 0].iloc[:, 0], data[label_dbs == 0].iloc[:, 1], c="red", marker='o', label='class0')  # 以红色圆圈样式绘制散点图并加上标签  
plt.scatter(data[label_dbs == 1].iloc[:, 0], data[label_dbs == 1].iloc[:, 1], c="green", marker='*', label='class1')  # 以绿色星星样式绘制散点图并加上标签 
plt.xlabel('x')  # 添加x轴名称
plt.ylabel('y')  # 添加y轴名称
plt.legend()  # 设置图例

<matplotlib.legend.Legend at 0x1ae591adb80>

from sklearn.cluster import KMeans
KMs = KMeans(n_clusters=2)
KMs.fit(data)
label_kms = KMs.labels_

# KMs # 这样可以查看模型参数，这里没有设置random_state参数，所以可能每次跑出来的结果略有不同（因为每次起始点选的地方不同）

print(label_kms)

[1 1 0 1 1 1 0 0 0 0 0 0 0 1 1 0 1 1 0 1 0 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1
 0 0 0 0 1 1 1 1 0 1 1 0 1 1 0 1 1 1 0 1 0 0 1 1 1 1 1 0 0 0 1 0 1 0 0 1 0
 1 0 0 1 1 1 0 0 0 1 0 0 0 0 1 0 1 0 1 0 1 1 0 1 0 0]

plt.scatter(data[label_kms == 0].iloc[:, 0], data[label_kms == 0].iloc[:, 1], c="red", marker='o', label='class0')  # 以红色圆圈样式绘制散点图并加上标签  
plt.scatter(data[label_kms == 1].iloc[:, 0], data[label_kms == 1].iloc[:, 1], c="green", marker='*', label='class1')  # 以绿色星星样式绘制散点图并加上标签 
plt.xlabel('x')  # 添加x轴名称
plt.ylabel('y')  # 添加y轴名称
plt.legend()  # 设置图例

<matplotlib.legend.Legend at 0x1ae36e727b0>

import pandas as pd
df = pd.read_excel('新闻.xlsx')
df.head()

# 如果没有安装jieba库，可以将下面代码取消注释后运行，即可安装jieba库
# !pip install jieba

import warnings

warnings.filterwarnings('ignore')

# 中文分词演示
import jieba
word = jieba.cut('我爱北京天安门')
for i in word:
    print(i)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\19559\AppData\Local\Temp\jieba.cache
Loading model cost 0.435 seconds.
Prefix dict has been built successfully.

我
爱
北京
天安门

# 第一条新闻标题
df.iloc[0]['标题']

'信托公司2019年上半年经营业绩概览'

# 第一条新闻标题中文分词
import jieba
word = jieba.cut(df.iloc[0]['标题'])
result = ' '.join(word)
print(result)

信托公司 2019 年 上半年 经营 业绩 概览

# 通过for循环遍历来进行所有标题的分词
import jieba
words = []
for i, row in df.iterrows():
    word = jieba.cut(row['标题']) # 这里的word是一个generator
    result = ' '.join(word) # 单引号里的是分隔符, 这里将word变为一个str
    words.append(result)

# generator

# 生成器表达式
gen_expr = (i * 2 for i in range(5))

print(type(gen_expr))

# 遍历生成器
for num in gen_expr:
    print(num)

<class 'generator'>
0
2
4
6
8

words[0:3]  # 展示前三条新闻的分词结果

['信托公司 2019 年 上半年 经营 业绩 概览',
 '首单 信托 型 企业 ABS 获批',
 '华能 贵 诚信 托孙磊 : 金融 科技 助力 打造 开放 信托 生态']

# 熟悉了上面的过程后，可以把代码合并写成如下形式
import jieba
words = []
for i, row in df.iterrows():
    words.append(' '.join(jieba.cut(row['标题'])))

print(len(words))

962

words[0:3]  # 同样展示前三条新闻的分词结果

['信托公司 2019 年 上半年 经营 业绩 概览',
 '首单 信托 型 企业 ABS 获批',
 '华能 贵 诚信 托孙磊 : 金融 科技 助力 打造 开放 信托 生态']

for i, row in df[0:5].iterrows():
    print(i)
    print(row)

0
关键词                                                 华能信托
标题                                    信托公司2019年上半年经营业绩概览
网址     http://www.financialnews.com.cn/jrsb_m/xt/zx/2...
来源                                               中国金融新闻网
时间                                     2019年07月23日 00:00
Name: 0, dtype: object
1
关键词                                              华能信托
标题                                       首单信托型企业ABS获批
网址     http://www.jjckb.cn/2018-10/23/c_137552198.htm
来源                                              经济参考网
时间                                  2018年10月23日 12:21
Name: 1, dtype: object
2
关键词                                                 华能信托
标题                               华能贵诚信托孙磊:金融科技助力打造开放信托生态
网址     https://baijiahao.baidu.com/s?id=1639276579449...
来源                                                 同花顺财经
时间                                     2019年07月17日 10:49
Name: 2, dtype: object
3
关键词                                            华能信托
标题                     华能贵诚信托孙磊:金融科技已经成为信托行业重要的基础设施
网址     https://finance.qq.com/a/20190716/007898.htm
来源                                             腾讯财经
时间                                2019年07月16日 18:53
Name: 3, dtype: object
4
关键词                                                 华能信托
标题                              格力电器股权转让意向方闭门开会 华能信托赫然在列
网址     https://finance.sina.com.cn/trust/roll/2019-05...
来源                                                    新浪
时间                                     2019年05月22日 22:53
Name: 4, dtype: object

# CountVectorizer()函数简单演示
from sklearn.feature_extraction.text import CountVectorizer
test = ['金融 科技 厉害', '华能 信托 厉害']
vect = CountVectorizer()
X = vect.fit_transform(test)
X = X.toarray()

print(X)

[[0 0 1 1 1]
 [1 1 1 0 0]]

# 查看词袋和对应的顺序
words_bag = vect.vocabulary_
print(words_bag)

{'金融': 4, '科技': 3, '厉害': 2, '华能': 1, '信托': 0}

print(words_bag.keys())

dict_keys(['金融', '科技', '厉害', '华能', '信托'])

# 这样给词频矩阵和对应词放在一个表格中

wordBag = pd.DataFrame(columns= words_bag.keys(), data = X)

wordBag

# 将之前所有的新闻标题进行文本向量化
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()
X = vect.fit_transform(words)
X = X.toarray()

# 查看所有新闻标题的词袋
words_bag = vect.vocabulary_

words_bag_20 = list(words_bag.items())[:20]
print(words_bag_20)

[('信托公司', 630), ('2019', 21), ('上半年', 296), ('经营', 2659), ('业绩', 345), ('概览', 2130), ('首单', 3337), ('信托', 628), ('企业', 538), ('abs', 103), ('获批', 2827), ('华能', 896), ('诚信', 2947), ('托孙磊', 1721), ('金融', 3199), ('科技', 2541), ('助力', 854), ('打造', 1720), ('开放', 1553), ('生态', 2408)]

wordBag = pd.DataFrame(data = X, columns= words_bag.keys())

wordBag.tail().iloc[:,10:20]

# 查看词袋中词的数目
len(words_bag)

3402

print(words[0])

print(words[1])

信托公司 2019 年 上半年 经营 业绩 概览
首单 信托 型 企业 ABS 获批

# 文本向量化
vect = CountVectorizer()  # 引入CountVectorizer()函数
X_test = vect.fit_transform(words[0:2])  # 将前两条新闻文本向量化
X_test = X_test.toarray()  # 将X_test转为数组
print(X_test)  # 查看生成的二维数组

[[1 0 1 1 0 0 1 1 1 0 0]
 [0 1 0 0 1 1 0 0 0 1 1]]

# 查看词袋的第一种方式
words_bag = vect.vocabulary_  # 第一种查看词袋的方式
print(words_bag)  # 查看词袋

{'信托公司': 6, '2019': 0, '上半年': 2, '经营': 8, '业绩': 3, '概览': 7, '首单': 10, '信托': 5, '企业': 4, 'abs': 1, '获批': 9}

# 将之前所有的新闻标题进行文本向量化并通过pandas展示
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

# 文本向量化
vect = CountVectorizer()
X = vect.fit_transform(words)  # 将分词后的内容文本向量化
X = X.toarray()

# 查看文本向量化的结果
words_bag = vect.vocabulary_  # 第二种查看词袋的方法
df = pd.DataFrame(X, columns=words_bag)
df.head().iloc[:,30:40]

print(df.sum(axis = 1)[0:5]) # 按行求和

0     6
1     5
2    10
3    11
4     9
dtype: int64

from sklearn.cluster import KMeans
kms = KMeans(n_clusters=10, random_state=123)
k_data = kms.fit_predict(df)

print(k_data[0:30])

[7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7]

import numpy as np
words_ary = np.array(words)
print(words_ary[k_data == 8][0:5])  # 可以改成其他数字看看效果

['数据 科学 哪家 强 ? Python 和 R 的 对决   -   博客园 新闻 手机 版'
 '数字化 阅读 空间   |   怎么 用 Python 迅速 获取 网站 数据 ?'
 '今天 破解 了 压缩文件 的 密码 : 使用 python 轻松 编写 破解 程序'
 '程序员 如何 利用   Python   解决 女朋友 不看 天气 的 坏习惯 ?'
 '向 Excel 说 再见 , 神级 编辑器 统一 表格 与 Python']

from sklearn.cluster import DBSCAN
dbs = DBSCAN(eps=1, min_samples=3) # 设置模型的eps参数（画圆半径）为1，min_samples参数（圆内最小样本数）为 3
d_data = dbs.fit_predict(df)

print(d_data[0:20])

[-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1]

words_test = ['想去 华能 信托', '华能 信托 很好 想去', '华能 信托 很好 想去 华能 信托 很好 想去']

# 文本向量化
vect = CountVectorizer()
X_test = vect.fit_transform(words_test)  # 将分词后的内容文本向量化
X_test = X_test.toarray()

# 查看文本向量化的结果
words_bag = vect.vocabulary_  # 第一种查看词袋的方法
df_test = pd.DataFrame(X_test, columns=words_bag)
df_test.head()

# 补充知识点：通过numpy库计算欧式距离
import numpy as np
dist = np.linalg.norm(df_test.iloc[0] - df_test.iloc[1])
dist

np.float64(1.0)

# 计算余弦相似度
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarities  = cosine_similarity(df_test)
cosine_similarities

array([[1.       , 0.8660254, 0.8660254],
       [0.8660254, 1.       , 1.       ],
       [0.8660254, 1.       , 1.       ]])

from sklearn.metrics.pairwise import cosine_similarity
cosine_similarities  = cosine_similarity(df)

rounded_similarities = np.around(cosine_similarities, decimals=3)
print(rounded_similarities[1:10, 1:10])

[[1.    0.141 0.135 0.149 0.135 0.129 0.    0.    0.258]
 [0.141 1.    0.572 0.211 0.191 0.183 0.091 0.191 0.274]
 [0.135 0.572 1.    0.201 0.182 0.174 0.087 0.182 0.261]
 [0.149 0.211 0.201 1.    0.402 0.577 0.096 0.101 0.289]
 [0.135 0.191 0.182 0.402 1.    0.522 0.087 0.091 0.261]
 [0.129 0.183 0.174 0.577 0.522 1.    0.083 0.087 0.25 ]
 [0.    0.091 0.087 0.096 0.087 0.083 1.    0.696 0.083]
 [0.    0.191 0.182 0.101 0.091 0.087 0.696 1.    0.087]
 [0.258 0.274 0.261 0.289 0.261 0.25  0.083 0.087 1.   ]]

from sklearn.cluster import KMeans
kms = KMeans(n_clusters=10, random_state=123)
k_data = kms.fit_predict(cosine_similarities)

print(k_data[0:20])

[2 4 4 4 4 4 4 2 2 4 4 4 4 4 4 4 4 4 4 4]

# 把之前的分词结果转为数组
print(words[0:3])
words_ary = np.array(words)
print(words_ary[0:3])

['信托公司 2019 年 上半年 经营 业绩 概览', '首单 信托 型 企业 ABS 获批', '华能 贵 诚信 托孙磊 : 金融 科技 助力 打造 开放 信托 生态']
['信托公司 2019 年 上半年 经营 业绩 概览' '首单 信托 型 企业 ABS 获批'
 '华能 贵 诚信 托孙磊 : 金融 科技 助力 打造 开放 信托 生态']

# 查看分类结果
import numpy as np
words_ary = np.array(words)
print(words_ary[k_data == 3][0:5])  # 可以把数字3改成其他数字看看效果

['装病 骗 政府 645 万 , 科技 远 不是 你 想 的 那样' '昔日 网游 第一股 迅游 科技 实控 人 被动 减持 , 商誉 压顶'
 'ChinaJoy   2019 丨 ITheat 热点 科技 展台 人气 火爆   这些 精彩 看点 不 容错过'
 '兴证 王涵 : 第四次 科技 革命 是 机遇 还是 挑战 ?' '《 科技 志愿 服务 管理 办法 》 开始 实行 !']

# 之前的演示

import jieba
word = jieba.cut('我爱北京天安门') # cut()函数分词得到的word不是一个列表, 而是一个迭代器generator(), 其实和列表很相似, 可以理解成一个 "隐身的列表", 不过其元素要通过for循环来访问, 所以后两行代码不能写成print(word)
for i in word:
    print(i)

我
爱
北京
天安门

import jieba
report = open('信托行业年度报告.txt', 'r').read()
words = jieba.cut(report)

for index, word in enumerate(words): # enumerate(words) 会返回一个包含索引和元素的元组，索引从 0 开始
    if index >= 10:
        break
    print(word)

2017
年
信托业
面临
着
较为
复杂
的
外部环境
。

words = jieba.cut(report)  # 这里得重新jieba.cut()一下，因为之前的words用过一次就被清空了
report_words = []
for word in words:  # 将大于4个字的词语放入列表
    if len(word) >= 4:
        report_words.append(word)
print(report_words[0:20])

['2017', '外部环境', '结构调整', '新兴产业', '另一方面', '金融监管', '信托公司', '管理工作', '管理体系', '2017', '全面落实', '结构调整', '初见成效', '金融监管', '小康社会', '深远影响', '2017', '多管齐下', '长效机制', '长效机制']

from collections import Counter
result = Counter(report_words) 
print(result[0:20])

0

result = Counter(report_words).most_common(50)  # 取最多的50组
print(result[0:20])

[('信托公司', 1391), ('2017', 577), ('2016', 184), ('金融机构', 148), ('投资信托', 108), ('基础产业', 91), ('2018', 87), ('风险管理', 82), ('工商企业', 77), ('QDII', 70), ('金融服务', 69), ('信息系统', 63), ('2015', 59), ('基础设施', 56), ('金融公司', 47), ('另一方面', 45), ('信托投资公司', 45), ('中国人民银行', 44), ('REITs', 39), ('金融业务', 38)]

import requests
import re
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

def baidu(keyword, page):  # 定义函数，方便之后批量调用
    num = (page - 1) * 10
    url = 'https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=' + keyword + '&pn=' + str(num)
    res = requests.get(url, headers=headers).text  # 通过requests库爬虫
    
    # 正则提取信息
    p_href = '<h3 class="c-title">.*?<a href="(.*?)"'
    p_title = '<h3 class="c-title">.*?>(.*?)</a>'
    p_info = '<p class="c-author">(.*?)</p>'
    href = re.findall(p_href, res, re.S)
    title = re.findall(p_title, res, re.S)
    info = re.findall(p_info, res, re.S)

    # 数据清洗
    source = []
    date = []
    for i in range(len(title)):
        title[i] = title[i].strip()
        title[i] = re.sub('<.*?>', '', title[i])
        info[i] = re.sub('<.*?>', '', info[i])
        source.append(info[i].split('&nbsp;&nbsp;')[0])  
        date.append(info[i].split('&nbsp;&nbsp;')[1])
        source[i] = source[i].strip()
        date[i] = date[i].strip()
    
    # 通过2.2.1节字典生成二维DataFrame表格   
    result = pd.DataFrame({'关键词': keyword, '标题': title, '网址': href, '来源': source, '日期': date})
    return result
    
# 通过pandas库将数据进行整合并导出为Excel
import pandas as pd  
df = pd.DataFrame()
    
keywords = ['华能信托', '人工智能']
for keyword in keywords:
    for i in range(4):  # 循环10遍，获取10页的信息
        result = baidu(keyword, i+1)
        df = pd.concat([df, result], ignore_index=True)
        print(keyword + '第' + str(i+1) + '页爬取成功')

df.to_excel('新闻_new.xlsx')  # 在代码所在文件夹生成EXCEL文件

华能信托第1页爬取成功
华能信托第2页爬取成功
华能信托第3页爬取成功
华能信托第4页爬取成功
人工智能第1页爬取成功
人工智能第2页爬取成功
人工智能第3页爬取成功
人工智能第4页爬取成功

	x	y
0	10.44	5.74
1	11.55	6.16
2	11.36	5.10
3	10.62	6.12
4	11.20	5.39

	开会	赫然	直击	投资者	见面会	参会者	背后	国务院	国资委	召开
0	0	0	0	0	0	0	0	0	0	0
1	0	0	0	0	0	0	0	0	0	0
2	0	0	0	0	0	0	0	0	0	0
3	0	0	0	0	0	0	0	0	0	0
4	0	0	0	0	0	0	0	0	0	0

第13章数据聚类与分群分析¶

13.1 KMeans算法¶

13.1.1 KMeans算法的基本原理¶

13.1.2 KMeans算法的代码实现¶

13.1.3 案例实战: 银行客户分群模型¶

13.2 DBSCAN算法¶

13.2.1 DBSCAN算法的基本原理¶

13.2.2 DBSCAN算法的代码实现及与KMeans的对比¶

DBSCAN¶

KMeans¶

13.3 案例实战: 新闻聚类分群模型¶

13.3.1 案例背景¶

13.3.2 文本数据的读取与处理¶

2 中文分词¶

补充知识点：遍历DataFrame表格的函数 - iterrows()函数¶

3 文本向量化基础: 建立词频矩阵¶

4 文本向量化实战: 构造特征变量¶

13.3.3 模型的搭建与使用¶

1. 通过KMeans算法进行聚类分群¶

2. 通过DBSCAN算法进行聚类分群¶

13.3.4 模型优化¶

1. 模型误差产生的原因¶

2. 余弦相似度的数学原理¶

3. 余弦相似度的Python代码实现¶

4. 利用余弦相似度进行模型优化¶

补充知识点: 大数据分词--jieba库的使用¶

1. jieba库的安装与基本使用方法¶

2. 读取文本内容并进行分词¶

3. 按指定长度提取分词后的词¶

4. 统计高频词汇¶

补充知识点: 新闻爬取--百度新闻爬虫¶

	关键词	标题	网址	来源	时间
0	华能信托	信托公司2019年上半年经营业绩概览	http://www.financialnews.com.cn/jrsb_m/xt/zx/2...	中国金融新闻网	2019年07月23日 00:00
1	华能信托	首单信托型企业ABS获批	http://www.jjckb.cn/2018-10/23/c_137552198.htm	经济参考网	2018年10月23日 12:21
2	华能信托	华能贵诚信托孙磊:金融科技助力打造开放信托生态	https://baijiahao.baidu.com/s?id=1639276579449...	同花顺财经	2019年07月17日 10:49
3	华能信托	华能贵诚信托孙磊:金融科技已经成为信托行业重要的基础设施	https://finance.qq.com/a/20190716/007898.htm	腾讯财经	2019年07月16日 18:53
4	华能信托	格力电器股权转让意向方闭门开会华能信托赫然在列	https://finance.sina.com.cn/trust/roll/2019-05...	新浪	2019年05月22日 22:53

	获批	华能	诚信	托孙磊	金融	科技	助力	打造	开放	生态
957	0	0	0	0	0	0	0	0	0	0
958	0	0	0	0	0	0	0	0	0	0
959	0	0	0	0	0	0	0	0	0	0
960	0	0	0	0	0	0	0	0	0	0
961	0	0	0	0	0	0	0	0	0	0

	年龄(岁)	收入(万元)
0	50	66
1	44	51
2	30	56
3	46	50
4	32	50

	获批	华能	诚信	托孙磊	金融	科技	助力	打造	开放	生态
957	0	0	0	0	0	0	0	0	0	0
958	0	0	0	0	0	0	0	0	0	0
959	0	0	0	0	0	0	0	0	0	0
960	0	0	0	0	0	0	0	0	0	0
961	0	0	0	0	0	0	0	0	0	0

第13章 数据聚类与分群分析¶

13.1 KMeans算法¶

13.1.1 KMeans算法的基本原理¶

13.1.2 KMeans算法的代码实现¶

13.1.3 案例实战: 银行客户分群模型¶

13.2 DBSCAN算法¶

13.2.1 DBSCAN算法的基本原理¶

13.2.2 DBSCAN算法的代码实现及与KMeans的对比¶

DBSCAN¶

KMeans¶

13.3 案例实战: 新闻聚类分群模型¶

13.3.1 案例背景¶

13.3.2 文本数据的读取与处理¶

2 中文分词¶

补充知识点：遍历DataFrame表格的函数 - iterrows()函数¶

3 文本向量化基础: 建立词频矩阵¶

4 文本向量化实战: 构造特征变量¶

13.3.3 模型的搭建与使用¶

1. 通过KMeans算法进行聚类分群¶

2. 通过DBSCAN算法进行聚类分群¶

13.3.4 模型优化¶

1. 模型误差产生的原因¶

2. 余弦相似度的数学原理¶

3. 余弦相似度的Python代码实现¶

4. 利用余弦相似度进行模型优化¶

补充知识点: 大数据分词--jieba库的使用¶

1. jieba库的安装与基本使用方法¶

2. 读取文本内容并进行分词¶

3. 按指定长度提取分词后的词¶

4. 统计高频词汇¶

补充知识点: 新闻爬取--百度新闻爬虫¶

第13章数据聚类与分群分析¶

	获批	华能	诚信	托孙磊	金融	科技	助力	打造	开放	生态
957	0	0	0	0	0	0	0	0	0	0
958	0	0	0	0	0	0	0	0	0	0
959	0	0	0	0	0	0	0	0	0	0
960	0	0	0	0	0	0	0	0	0	0
961	0	0	0	0	0	0	0	0	0	0